MOLEXA : une IA perce enfin les secrets des molécules que la science ne pouvait pas atteindre

Depuis cinq ans, l’IA s’est imposée en biologie structurale en prédisant la conformation des protéines à partir de leur séquence, bien plus rapidement que les méthodes expérimentales classiques. Mais une équipe du SLAC National Accelerator Laboratory (DOE) explore une autre voie : avec MOLEXA, un modèle génératif inédit, elle parvient à reconstruire la géométrie tridimensionnelle d’une molécule à partir des fragments produits lors d’une explosion de Coulomb induite par rayons X.

Cette technologie pourrait, à terme, améliorer notre compréhension d'un grand nombre d'interactions moléculaires. © kirstiehamilton / Shutterstock

L'info en 3 points

Une équipe du SLAC a développé MOLEXA, un modèle IA pour reconstruire la géométrie des molécules après une explosion de Coulomb.
Cette méthode surpasse les techniques d'imagerie traditionnelles, permettant d'observer des molécules isolées en phase gazeuse.
MOLEXA combine des données quantiques et classiques pour améliorer la précision, avec des applications potentielles en biologie et en chimie.

MOLEXA (MOLecular structure rEconstruction from Coulomb eXplosion imAging) est un projet mené en collaboration entre trois entités : des chercheurs du SLAC National Accelerator Laboratory, accompagnés par l'Argonne National Laboratory et le European X-ray Free-Electron Laser (European XFEL). Il s'inscrit pleinement dans la veine d'autres projets comme AlphaFold 3 développé par Google DeepMind et sa filiale Isomorphic Labs, RoseTTAFold All-Atom, ou encore Boltz-2.

Publié le 3 mars 2026 dans la revue Nature Communications, ce travail est une première mondiale : aucun modèle d'IA n'avait jusqu'ici été conçu pour reconstruire une structure moléculaire à partir de données d'explosion de Coulomb. L'enjeu est de taille, car les techniques d'imagerie existantes buttent toutes sur le même obstacle : elles peines à observer des molécules isolées en phase gazeuse dans des conditions expérimentales réelles.

Grâce à l'explosion de Coulomb, il est possible de procéder autrement. Un laser à rayons X émet une impulsion sur une molécule isolée dans une chambre à vide et lui arrache ses électrons. Les ions restants, soudainement chargés positivement, se repoussent violemment et viennent frapper un détecteur qui enregistre leurs trajectoires.

C'est à partir de ces traces, et uniquement d'elles, que l'on cherche à remonter à la géométrie initiale de la molécule. Un problème inverse que la physique conventionnelle ne sait pas résoudre proprement : après l'arrachage des électrons, les atomes se déplacent légèrement avant que les ions ne s'envolent, ce qui fausse toute tentative de reconstruction par simple application de la loi de Coulomb. Grâce à MOLEXA, une technique expérimentale longtemps bridée par le calcul retrouve tout son potentiel.

Imagerie moléculaire : les limites des méthodes actuelles

Observer une molécule isolée en train de réagir chimiquement est l'un des défis les plus coriaces de la physique et de la chimie expérimentales, car nos outils sont limités par leur nature. La microscopie électronique oblige les chercheurs à travailler avec un échantillon fixe, ce qui rend donc impossible le travail sur des molécules librement flottantes en phase gazeuse.

Les techniques de diffraction, elles, exigent un échantillon dense pour générer un signal exploitable par le détecteur : le résultat obtenu est techniquement une moyenne sur l'ensemble des molécules présentes, ce qui empêche d'accéder aux détails structuraux propres à une molécule individuelle. « Cette technique [NDLR : il fait référence ici à l'explosion de Coulomb] a la capacité d'isoler des détails mineurs qui sont chimiquement pertinents », souligne James Cryan, directeur adjoint intérimaire pour la science au LCLS et co-auteur de l'étude. Ce qui est impossible à obtenir, par exemple, avec les deux types d'outils cités précédemment.

Comme expliqué en introduction, même si l'explosion de Coulomb détient ici un fort potentiel, elle n'est pas parfaite : la reconstruction de la structure moléculaire à partir des données d'un détecteur reste un problème inverse particulièrement ardu.

D'abord parce que l'arrachage des électrons par le laser n'est pas instantané, et que, durant ce bref délai, les atomes se repositionnent légèrement, ce qui décale les trajectoires des ions par rapport à ce qu'elles auraient été si la molécule était restée parfaitement figée. Appliquer la loi de Coulomb dans ces conditions revient à ignorer ce déplacement et tend à produire des structures géométriques erronées.

Ensuite parce que la complexité du problème croît drastiquement avec la taille de la molécule : pour une molécule de dix atomes, le nombre de configurations possibles à explorer est sans commune mesure avec celui d'une molécule de trois atomes. « C'est un peu comme casser un verre et essayer de le recomposer à partir de la façon dont les morceaux se sont éparpillés », résume Phay Ho, physicien à l'Argonne National Laboratory et co-auteur de l'étude.

L'outil expérimental existait bien, mais on ne pouvait pas l'exploiter à son plein potentiel, car aucune méthode ne permettait de remonter de façon fiable des trajectoires des ions à la géométrie de la molécule d'origine. Rien de plus frustrant pour des physiciens que de disposer d'informations structurales très riches sur les molécules, sans avoir les moyens computationnels de les déchiffrer.

MOLEXA aide les chercheurs à « remonter le temps » pour retrouver la forme initiale d’une molécule. © Gorodenkoff / Shutterstock

MOLEXA : résoudre le problème inverse de l’imagerie moléculaire

MOLEXA apprend, grâce au machine learning, les corrélations statistiques entre les quantités de mouvement des ions enregistrées par le détecteur et les géométries moléculaires qui les ont produites. Une approche radicalement différente : plutôt que de calculer, le modèle reconnaît des patterns. Les LLM comme ChatGPT ou Gemini projettent le sens des mots dans un espace mathématique multidimensionnel quand MOLEXA, lui, projette la configuration spatiale des atomes.

Pour entraîner le modèle, il fallait des données : des milliers d'exemples associant une structure moléculaire connue aux trajectoires d'ions qu'elle produirait lors d'une explosion de Coulomb. L'équipe a donc eu recours à une simulation développée par Phay Ho, qui calcule ces trajectoires à partir de structures existantes en combinant mécanique quantique et physique classique. Après plus d'un mois de calcul intensif, elle a produit 76 000 paires de données. Un volume modeste par rapport aux standards habituels de l'IA…. et effectivement insuffisant : entraîné sur ce seul corpus, MOLEXA produisait des reconstructions inexactes.

Les chercheurs ont donc été obligés de procéder autrement : MOLEXA a d'abord été entraîné sur les 76 000 paires de données issues de la simulation la plus précise, celle combinant mécanique quantique et physique classique. Dans cet ensemble, chaque paire associait une structure moléculaire connue aux trajectoires d'ions qu'elle produirait lors d'une explosion de Coulomb. Puis l'équipe a introduit un second corpus, produit cette fois par une simulation reposant uniquement sur la physique classique. Cette approche est moins exacte, puisque la mécanique quantique décrit le comportement des atomes avec bien plus de fidélité. En revanche, elle est aussi beaucoup plus rapide à exécuter, ce qui a permis de générer un jeu de données cent fois plus volumineux.

L’idée était de compenser le manque de précision par la quantité, en combinant les deux corpus. Cette stratégie s’est révélée nettement plus efficace que l’entraînement initial. « Nous avons constaté que ce processus d'entraînement en deux étapes supprimait l'erreur de prédiction d'un facteur deux », confirme Xiang Li. C'est-à-dire que MOLEXA, renforcé de cette manière, commet deux fois moins d'erreurs sur la position des atomes reconstruits qu'avec un entraînement sur le seul corpus quantique.

« C'est seulement un point de départ pour les recherches futures », nuance Xiang Li, « qui ne se contenteront pas d'améliorer la précision du modèle, mais étendront son applicabilité à des systèmes moléculaires plus grands. » La feuille de route est tracée : molécules plus complexes, expériences de suivi de réactions chimiques en temps réel, données incomplètes, trois fronts sur lesquels MOLEXA devra faire ses preuves avant de pouvoir prétendre s'attaquer aux systèmes biologiques et industriels qui constituent l'horizon réel de la technique. Reconstruire la structure de protéines à l'état isolé, sans avoir à les cristalliser, filmer une réaction chimique atome par atome, capturer la géométrie d'une molécule à différents stades d'une réaction enzymatique, accélérer la découverte de médicaments : les applications potentielles d'un tel système, une fois à maturité, sont très nombreuses. Pour l'heure, le modèle ne traite que des molécules de moins de dix atomes : le chemin qui s'annonce est encore très long, mais jamais le problème inverse de reconstruction moléculaire n’avait été abordé avec une telle efficacité.

Source : Phys.org